home *** CD-ROM | disk | FTP | other *** search
/ ftp.cs.arizona.edu / ftp.cs.arizona.edu.tar / ftp.cs.arizona.edu / icon / newsgrp / group98a.txt / 000011_icon-group-sender _Thu Jan 22 10:27:46 1998.msg < prev    next >
Internet Message Format  |  2000-09-20  |  3KB

  1. Return-Path: <icon-group-sender>
  2. Received: from kingfisher.CS.Arizona.EDU (kingfisher.CS.Arizona.EDU [192.12.69.239])
  3.     by baskerville.CS.Arizona.EDU (8.8.7/8.8.7) with SMTP id KAA03654
  4.     for <icon-group-addresses@baskerville.CS.Arizona.EDU>; Thu, 22 Jan 1998 10:27:45 -0700 (MST)
  5. Received: by kingfisher.CS.Arizona.EDU (5.65v4.0/1.1.8.2/08Nov94-0446PM)
  6.     id AA00343; Thu, 22 Jan 1998 10:27:45 -0700
  7. Date: Wed, 21 Jan 1998 18:56:42 -0600 (CST)
  8. From: Ramon Pereda <rpereda@ringer.cs.utsa.edu>
  9. X-Sender: rpereda@ringer
  10. To: MJE <evans@gte.net>
  11. Cc: icon-group@optima.CS.Arizona.EDU
  12. Subject: Re: Shannon-theoretic Language Approximators
  13. In-Reply-To: <6a596h$gt3$1@gte2.gte.net>
  14. Message-Id: <Pine.GSO.3.95.980121184352.5128A-100000@ringer>
  15. Mime-Version: 1.0
  16. Content-Type: TEXT/PLAIN; charset=US-ASCII
  17. Errors-To: icon-group-errors@optima.CS.Arizona.EDU
  18. Status: RO
  19. Content-Length: 1851
  20.  
  21. On Wed, 21 Jan 1998, MJE wrote:
  22.  
  23. > I am wondering whether anyone has written a random-text generator in the Icon
  24. > language of the sort that is described in the book "An Introduction to
  25. > Information Theory : Symbols, Signals and Noise" by John Robinson Pierce
  26. > (paperback; @ US$7.16 from http://www.amazon.com).
  27.  
  28. Tell me a little more about the book and I'll consider buying it.
  29. amazon.com does not have a table of contents.  Icon would be ideal
  30. for this sort of application.  I'd be glad to get you started, if 
  31. I buy the book and the theory is not too thick.  I'm very interested
  32. in n-grams.  Does the book talk any about n-grams?  There is an 
  33. n-grams sample program in the Icon program library but it only
  34. does n-grams for single letters.  I'd like to do n-grams for
  35. words and arbitrary items.  If I remember correctly it was not
  36. straight forward to modify the program to handle these extensions.
  37.  
  38. > One of Shannon's studies involved the generation of random words that
  39. > correspond, in a statistical/probabilistic sense, to English.  The text is
  40. > meaningless, but because it corresponds to the statistics of English, it can
  41. > serve as a basis for studying the transmission of English prose.  In principle,
  42. > the technique applies to any other language as well.
  43.  
  44. There is a an old book with a title like Icon programming for the
  45. Humanities that touches on these issues.  I would only recommend
  46. it as a very basic introduction.
  47.  
  48. > MORE GENERALLY:  I would be interested in any Icon implementations of language
  49. > statistics.  Examples:  counting frequencies of characters in a block of text,
  50. > counting word frequencies in a block of text, examining symmetries in poetry,
  51. > computing estimated probabilities of particular sequences of characters.
  52.  
  53. Browse the Icon programming library at www.cs.arizon.edu.  I'm sure
  54. there is some stuff.
  55.  
  56. -ray
  57.  
  58.